2009_GNN

一、GNN [2009]

《The Graph Neural Network Model》

数据可以在许多应用领域中自然地用图结构（graph structure）来表达，包括蛋白质组织学（proteomics）、图像分析、场景描述、软件工程、自然语言处理。最简单的图结构包括单节点（single node）、序列（sequence）。但是在一些应用中，信息被组织成更复杂的图结构，如树、无环图、带环图。传统上，数据关系探索一直是归纳式逻辑编程（inductive logic programming）的社区中许多研究的主题。最近，数据关系探索（data relationships exploitation）这个研究主题已经朝着不同的方向发展，这也是因为统计（statistics）和神经网络中的相关概念在这些领域中的应用。
learning $\tau$ $\mathbf G$ $n$ $\tau(\mathbf G,v) \in \mathbb R^m$ $m$ 为向量的维度。在本文中，图领域的应用（application）通常可以分为两大类，分别称作 graph-focused 应用、node-focused 应用。
- graph-focused $\tau$ $n$ ，并且在图结构的数据集上实现分类器或回归器。
  此时每个图具有一个 representation，并且每个图具有一个 target。
  $\mathbf G$ $\tau(\mathbf G)$ 可用于估计化合物引起某种疾病的概率。
  region adjacency graph $\tau(\mathbf G)$ 将图片分为不同的类别，如城堡、汽车、人等等。
- node-focused $\tau$ $n$ ，因此分类（或回归）取决于每个节点的属性。
  此时每个节点具有一个 representation，并且每个节点具有一个 target 。
  application $\tau$ $\tau$ 1 $\tau$ 输出为 0 。
  另一个例子来自于网页分类。web 可以通过一个图来表达，其中节点代表网页，边代表网页之间的超链接，如下图所示。可以利用 web connectivity 以及网页内容来实现多种目的（purposes），如页面的主题分类。
传统的机器学习 application 通过使用预处理（ preprocessing ）阶段来处理图结构化数据（graph structured data），该阶段将图结构化信息映射到更简单的 representation，如实值向量。换句话讲，预处理步骤首先将图结构化数据 "squash" 为实数向量，然后使用 list-based 数据处理技术来处理 preprocessed的数据。然而，在预处理阶段，一些重要的信息（如每个节点的拓扑依赖性 topological dependency）可能会丢失，并且最终结果可能以不可预知的方式（unpredictable manner ）取决于预处理算法的细节。
最近，有各种方法试图在预处理阶段尽可能地保留数据的图结构特性，其思想是：使用图节点之间的拓扑关系对底层的图结构化数据进行编码，以便在数据正式处理步骤（即预处理步骤之后的模型处理阶段）中融合图结构化信息。这组技术包括 recursive neural network: RNN、马尔科夫链（Markov chain: MC），并且通常可以同时应用于 graph-focused 问题和 node-focused 问题。论文 《The Graph Neural Network Model》提出的方法扩展了这两种方法（即 RNN 和马尔科夫链），因为该方法可以直接处理图结构化信息。
- 现有的 RNNdirected acyclic graph $\varphi_{\mathbf w}$ $\mathbf w$ $\varphi_{\mathbf w}$ 将图映射到实值向量。该方法也可以用于 node-focused application 中，此时，图必须经过预处理阶段。类似地，采用预处理阶段之后，我们可以处理某些类型的带环图。RNN 已被应用于多个问题，包括逻辑术语分类（logical term classification）、化合物分类、logo 识别、网页评分、人脸定位（face localization）。
  RNN 也与支持向量机有关，其中支持向量机采用特殊的 kernel 对图结构化数据进行操作，其中：
  - diffusion kernel 是基于热扩散方程（heat diffusion equation）。
  - 《Marginalized kernels between labeled graphs》和 《Extensions of marginalized graph kernels》 中提出的 kernel 利用了图随机游走生成的向量。
  - 《Convolution kernels for natural language》、《Kernels for structured natural language data》、《Convolution kernels with feature selection for natural language processing tasks》 中设计的 kernel 使用了一种计算两棵树的公共子结构数量的方法。
  事实上，类似于支持向量机方法，RNN 自动将输入的图编码为内部 representation。然而，在 RNN 中内部编码是模型自动学到的，而在支持向量机中内部编码是由用户手动设计的。
- 另一方面，马尔科夫链模型可以建模事件之间的因果关系，其中因果关系由图来表达。最近，针对特定种类马尔科夫链模型的随机游走理论已成功应用于网页排名（ranking）算法的实现。互联网搜索引擎使用排名算法来衡量网页的相对重要性。这类度量值通常与其它页面特征一起被搜索引擎所利用，从而对用户 query 返回的 URL 进行排序。人们已经进行了一些尝试来扩展这些具有学习能力的模型，以便可以从训练样本中学习模型参数。这些模型能够泛化结果从而对集合中的所有网页进行评分。更一般地，人们已经提出了几种其它统计方法，这些方法假设数据集由模式（pattern）、以及模式之间的关系（relationship）组成。这些技术包括：随机场（random field）、贝叶斯网络、统计关系学习、transductive learning、用于图处理的半监督方法。
在论文 《The Graph Neural Network Model》 中，作者提出了一种有监督的神经网络模型，该模型同时适用于 graph-focused application 和 node-focused application。该模型将这两个现有模型（即 RNN 和马尔科夫链）统一到一个通用框架中。论文将这种新颖的神经网络模型称作图神经网络（graph neural network: GNN）。论文将证明 GNN 是 RNN 和随机游走模型的扩展，并且保留了它们的特性（characteristics）。
- GNN 模型扩展了 RNN，因为 GNN 可以处理更通用的图，包括带环图、有向图、无向图，并且无需任何预处理步骤即可处理 node-focused application 。
- GNN 方法通过引入 learning 算法、以及扩大可建模过程的种类从而扩展了随机游走理论。
GNN 基于信息扩散机制（information diffusion mechanism）。图由一组单元（unit ）来处理，每个单元对应于图上的一个节点，这些节点根据图的连通性进行链接。这些单元更新它们的状态并交换信息，直到它们到达稳定的平衡（stable equilibrium）。然后，基于单元的状态（unit state ）计算每个节点的输出。扩散机制是受约束（constrained）的，从而确保始终存在唯一的稳定平衡。
这种实现机制已经在细胞神经网络、Hopfield 神经网络中使用。在那些神经网络模型中，连通性是根据预定义的图来指定的，网络连接本质上是循环（recurrent）的，神经元状态是通过松弛（relaxation）到平衡点（equilibrium point）来计算的。GNN 与那些神经网络不同之处在于：GNN 可以处理更加通用的图，并且采用更通用的扩散机制。
在论文 《The Graph Neural Network Model》 中，作者将介绍一种学习算法，该算法在一组给定的训练样本上估计 GNN 模型的参数。此外，参数估计算法的计算代价需要被考虑。还值得一提的是，《Computation capabilities of graph neural networks》 已经证明了 GNNGNN $\varphi$ 。

1.1 模型

$\mathbf G=(\mathbf N,\mathbf E)$ $\mathbf N$ $\mathbf E$ $n\in \mathbf N$ $\text{ne}[n]$ $\text{co}[n]$ $n$ 的边的集合。
节点和边可能含有额外的信息，这些信息统称为标签信息（它和监督学习中的 label 不是一个概念），并以实值向量的形式来表示。
- $n$ $\vec l_n\in \mathbb R^{d_N}$ $(n_1,n_2)$ $\vec l_{n_1,n_2} \in \mathbb R^{d_E}$ $d_N$ $d_E$ 为边标签的维度。
- $\vec l$ 为图中所有标签向量（包括所有节点标签向量、所有边标签向量）拼接得到的all 标签向量。
- scheme $\mathbf{\vec y}$ $\mathbf G$ $\mathbf S$ $\mathbf G$ $\mathbf{\vec y}_\mathbf S$ $\mathbf S$ $\vec l_{\text{ne}[n]}$ $n$ 的邻域节点的所有节点标签。
注意，这里的符号定义与大多数论文的符号定义不同。
region $\mathbf G$ 中时，就需要区分它们。这可以通过在每条边上添加适当的标签来轻松地实现，此时，不同类型的边具有不同的标签。
$\mathbf G$ 可以是 positional 的、或者是 nonpositional 的。nonpositional graphpositional graph $n$ 的每个邻居都被分配一个 unique 的整数标识符，从而指示每个邻居的逻辑位置（logical positionpositional graph $\nu_n:\text{ne}[n]\rightarrow \{1,2,\cdots,|\mathbf N|\}$ $n$ $u$ position $\nu_n(u)$ region adjacency graph $\nu_n$ $\nu_n$ $n$ 的邻居。
注意，位置信息可以通过对邻居节点分配位置编号来显式地给出，也可以通过对邻居节点进行排序从而隐式地给出。
(graph, node) pair $\mathcal D = \mathcal G\times \mathcal N$ $\mathcal G=\{\mathbf G_1,\cdots\}$ graph $\mathcal N=\{\mathbf N_1,\cdots\}$ 为这些 graph 的节点集合的集合，即：
$L = {(G_{i}, n_{i, j}, t_{i, j}) ∣ G_{i} = (N_{i}, E_{i}) \in G, n_{i, j} \in N_{i}, t_{i, j} \in R^{m}, 1 \leq i \leq p, 1 \leq j \leq q_{i}}$
$\mathbf G_i$ $i$ $n_{i,j}$ $\mathbf G_i$ $j$ $\mathbf t_{i,j}$ $n_{i,j}$ desired target $p\le |\mathcal G|$ $q_i\le |\mathbf N_i|$ 。
$\mathcal D$ unique $\mathcal D$ pair $\mathcal L = (\mathbf G,\mathcal T)$ $\mathbf G=(\mathbf N,\mathbf E)$ $\mathcal T = \left\{\left(n_i,\mathbf t_i\right)\mid n_i\in \mathbf N,\mathbf t_i\in \mathcal R^m,1\le i\le q\right\}$ 。值得一提的是，这个紧凑的定义不仅因为它简单易用，而且它还直接捕捉到了一些问题的本质，其中领域domain 仅由一个图组成，如大部分的 web 网络（如下图所示）。

1.1.1 思想

state vector $\mathbf{\vec x}_n\in \mathcal R^s$ $n$ $\mathbf{\vec x}_n$ $n$ $s$ $\mathbf{\vec x}_n$ $n$ representation $\mathbf{\vec o}_n$ （即，这个概念能决定什么）。
$f_{\mathbf w}(\cdot)$ 为一个参数化（parametriclocal transition function $g_{\mathbf w}(\cdot)$ local output function $\mathbf{\vec x}_n$ $\mathbf{\vec o}_n$ 的定义如下：
$\begin{matrix} {\vec{x}}_{n} = f_{w} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, {\vec{x}}_{ne [n]}, {\vec{l}}_{ne [n]}) \\ {\vec{o}}_{n} = g_{w} ({\vec{x}}_{n}, {\vec{l}}_{n}) \end{matrix}$
其中：
- $\vec l_n$ $n$ 的标签信息向量。
- $\vec l_{\text{co}[n]}$ $n$ 的所有边的标签信息向量拼接的向量。
- $\mathbf{\vec x}_{\text{ne}[n]}$ $n$ 的所有邻居的状态向量拼接的向量。
- ${\vec l}_{\text{ne}[n]}$ $n$ 的所有邻居的标签信息向量拼接的向量。
$n$ $\mathbf{\vec x}_n$ $\mathbf{\vec x}_{\text{ne}[n]}$ 。而邻居的状态向量又依赖于邻居的邻居的状态向量集合。
注意：这里的邻域依赖性使得计算状态向量所依赖的节点规模迅速膨胀。假设平均邻域大小为 10 个节点，如果最多依赖于 5 阶邻域，那么计算每个状态向量需要依赖于 5 阶邻域内的 10 万个邻域节点。
备注：
- $\vec l_{\text{ne}[n]}$ $\vec l_{\text{ne}[n]}$ $\mathbf{\vec x}_{\text{ne}[n]}$ $n$ 2-hop 或者多个 hop 的节点。
- $f_{\mathbf w}(\cdot)$ $d_e, \mathit e \in \text{co}[n]$ $e$ $n$ $d_e = 1$ $e$ $n$ $d_e = 0$ 。则有：
  ${\vec{x}}_{n} = f_{w} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, d_{co [n]}, {\vec{x}}_{ne [n]}, {\vec{l}}_{ne [n]})$
  本文中为了保持符号紧凑，我们使用无向图的形式。然而，除非特殊说明，否则本文中提出的所有结果也适用于有向图、以及混合有向与无向的图。
- $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ parameters $n$ $n$ $k_n$ $f_{\mathbf w}^{k_n}(\cdot)$ $g_{\mathbf w}^{k_n}(\cdot)$ $\mathbf w_{k_n}$ ，则有：
  $\begin{matrix} {\vec{x}}_{n} = f_{w_{k_{n}}}^{k_{n}} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, {\vec{x}}_{ne [n]}, {\vec{l}}_{ne [n]}) \\ {\vec{o}}_{n} = g_{w_{k_{n}}}^{k_{n}} ({\vec{x}}_{n}, {\vec{l}}_{n}) \end{matrix}$
  然而为了简单起见，我们对所有节点共享相同的转移函数和输出函数（包括它们的参数）。
  如果没有参数共享则模型的容量太大导致难以训练且很容易过拟合。
$\mathbf{\vec x}, \mathbf{\vec o},\vec l,\vec l_{\mathbf N}$ $\mathbf{\vec x}=\left[\mathbf{\vec x}_1^\top,\cdots,\mathbf{\vec x}_{|\mathbf N|}^\top\right]^\top$ ），则有：
$\begin{matrix} \vec{x} = F_{w} (\vec{x}, \vec{l}) \\ \vec{o} = G_{w} (\vec{x}, {\vec{l}}_{N}) \end{matrix}$
其中：
- $F_{\mathbf w}(\cdot)$ global transition fucntion $|\mathbf N|$ $f_{\mathbf w}(\cdot)$ 组成。
- $G_{\mathbf w}(\cdot)$ global output function $|\mathbf N|$ $g_{\mathbf w}(\cdot)$ 组成。
pair $\mathcal D = \mathcal G\times \mathcal N$ $\mathcal G=\{\mathbf G_1,\cdots\}$ $\mathbf N=\{\mathbf N_1,\cdots\}$ $\varphi_{\mathbf w}: \mathcal D \rightarrow \mathcal R^m$ $n$ $\mathbf{\vec o}_n$ 。
Banach 不动点理论（ fixed point theoremBanach $F_{\mathbf w}(\cdot)$ $\mathbf{\vec x} = F_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}\right)$ $F_{\mathbf w}(\cdot)$ contraction map $\mu, 0\le\mu\lt 1$ $\mathbf{\vec x}, \mathbf{\vec y}$ 都有：
$‖ F_{w} (\vec{x}, \vec{l}) - F_{w} (\vec{y}, \vec{l}) ‖ \leq μ ‖ \vec{x} - \vec{y} ‖$
$||\cdot||$ 表示向量范数。
$F_{\mathbf w}(\cdot)$ 是一个收缩映射。实际上在 GNN 模型中，这个条件是通过适当的选择转移函数来实现的。
上述公式能够同时处理位置图（positional graph）和非位置图（nonpositional graph）。
- $f_{\mathbf w}(\cdot)$ $\vec l_{\text{co}[n]}, \mathbf{\vec x}_{\text{ne}[n]}, \vec l_{\text{ne}[n]}$ 按照排序之后的顺序进行拼接。如果在某些位置处的邻居不存在，则需要填充 null 值。例如：
  ${\vec{x}}_{ne [n]} = {[{\vec{y}}_{1}^{⊤}, \dots, {\vec{y}}_{M}^{⊤}]}^{⊤}$
  其中：
  - $M = \max_{n,u}\nu_n(u)$ 为所有节点的最大邻居数。
  - $\mathbf{\vec y}_i$ $i$ 个位置邻居的状态向量：
    $\begin{matrix} {\vec{y}}_{i} = {\begin{cases} {\vec{x}}_{u} & if (i = ν_{n} (u)) \\ {\vec{x}}_{0} & else \end{cases} \end{matrix}$
    $u$ $n$ $i$ $\mathbf{\vec y}_i = \mathbf{\vec x}_u$ $n$ $i$ $\mathbf{\vec y}_i$ null $\mathbf{\vec x}_0$ 。
- $f_{\mathbf w}(\cdot)$ 替换为：
  ${\vec{x}}_{n} = \sum_{u \in ne [n]} h_{w} ({\vec{l}}_{n}, {\vec{l}}_{(n, u)}, {\vec{x}}_{u}, {\vec{l}}_{u})$
  $h_{\mathbf w}(\cdot)$ 为待学习的函数，它和邻居节点的数量和位置无关。这种形式被称作 nonpositional form，而原始形式被称作 positional form。
  注意，这里对邻居节点采用 sum 聚合。也可以采用 max 聚合或者 attention 聚合。
为实现 GNN 模型，我们必须解决以下问题：
- 求解以下方程的算法：
  $\begin{matrix} {\vec{x}}_{n} = f_{w} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, {\vec{x}}_{ne [n]}, {\vec{l}}_{ne [n]}) \\ {\vec{o}}_{n} = g_{w} ({\vec{x}}_{n}, {\vec{l}}_{n}) \end{matrix}$
- $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ 参数的学习算法。
- $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ 的实现方式，即：解空间。

1.1.2 方程求解算法

Banach 不动点理论不仅保证了解的存在性和唯一性，还给出了求解的方式：采用经典的迭代式求解：
$\vec{x} (t + 1) = F_{w} (\vec{x} (t), \vec{l})$
$\mathbf{\vec x}(t)$ $\mathbf{\vec x}$ $t$ 次迭代值。
$\mathbf{\vec x}(0)$ $\mathbf{\vec x} = F_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}\right)$ $\mathbf{\vec x}(t)$ $F_{\mathbf w}(\cdot)$ $\mathbf{\vec o}_n(t)$ $\mathbf{\vec x}_n(t)$ 的更新方程为：
$\begin{matrix} {\vec{x}}_{n} (t + 1) = f_{w} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, {\vec{x}}_{ne [n]} (t), {\vec{l}}_{ne [n]}) \\ {\vec{o}}_{n} (t) = g_{w} ({\vec{x}}_{n} (t), {\vec{l}}_{n}), n \in N \end{matrix}$
unit $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ 计算其输出。这个神经网络被称作编码网络（encoding networkRNN $f_{\mathbf w}(\cdot)$ $\mathbf{\vec x}_n(t+1)$ 。
$f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ 通过前馈神经网络实现时，编码网络就成为 RNN ，其中神经元之间的连接可以分为内部连接（internal connection）和外部连接（external connection）：内部连接由实现处理单元的神经网络架构（如前馈神经网络）决定，外部连接由图的边来决定。
如下图所示：上半图对应一个Graph，中间图对应于编码网络，下半图对应于编码网络的展开图（unfolding graph ）。在展开图中，每一层（layer）代表一个时间步，layer 之间的链接（外部连接）由图的连接性来决定，layer 内神经元的链接（内部连接）由神经网络架构决定。
$f_\mathbf w(\cdot)$ $\mathbf{\vec x}_n(t)$ ，外部连接决定节点之间的依赖关系。

1.1.3 参数学习算法

假设训练集为：
$\begin{matrix} L = {(G_{i}, n_{i, j}, t_{i, j}) ∣ G_{i} = (N_{i}, E_{i}) \in G, n_{i, j} \in N_{i}, t_{i, j} \in R^{m}, 1 \leq i \leq p, 1 \leq j \leq q_{i}} \\ p \leq | G |, q_{i} \leq | N_{i} | \end{matrix}$
$\mathbf G_i$ $i$ $\mathbf N_i$ $i$ $\mathbf E_i$ $i$ $n_{i,j}$ $i$ $j$ $\mathbf t_{i,j}$ $n_{i,j}$ target $q_i$ $\mathbf G_i$ $p$ 为数据集中图的数量。
- graph-focused $q_i = 1$ 。
- 对于node-focused 任务，每个节点都可以包含监督信息。
假设采用平方误差，则训练集的损失函数为：
$e_{w} = \sum_{i = 1}^{p} \sum_{j = 1}^{q_{i}} {‖ t_{i, j} - φ_{w} (G_{i}, n_{i, j}) ‖}_{2}^{2}$
$\varphi_\mathbf{w}(\cdot)$ 为近似函数（approximate function）。
也可以在损失函数中增加罚项从而对模型施加约束。
我们可以基于梯度下降算法来求解该最优化问题，求解方法由以下几步组成：
- $\mathbf{\vec x}_n(t)$ $T$ ：
  $\begin{matrix} {\vec{x}}_{n} (t + 1) = f_{w} ({\vec{l}}_{n}, {\vec{l}}_{co [n]}, {\vec{x}}_{ne [n]} (t), {\vec{l}}_{ne [n]}) \\ {\vec{o}}_{n} (t) = g_{w} ({\vec{x}}_{n} (t), {\vec{l}}_{n}), n \in N \end{matrix}$
  $\mathbf{\vec x} = F_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}\right)$ $\mathbf{\vec x}^*$ $\mathbf{\vec x}(T) \simeq \mathbf{\vec x}^*$ 。
  $F_{\mathbf w}(\cdot)$ 是一个压缩映射，从而保证方程能够收敛到一个不动点。
- $\nabla_{\mathbf{ w}} e_{\mathbf w}$ 。
- $\mathbf w$ 。
$\nabla_{\mathbf{ w}} e_{\mathbf w}$ 的计算可以利用 GNN 中发生的扩散过程（diffusion process）以非常高效的方式进行。这种扩散过程与 RNNbackpropagation-through-time: BPTT $T$ unfold $t_0$ unit $f_{\mathbf w}(\cdot)$ $T$ $g_{\mathbf w}(\cdot)$ 并计算网络的输出。
BPTT $T$ $t$ $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ $\nabla_{\mathbf{ w}} e_{\mathbf w}(T)$ BPTT $t$ $\mathbf {\vec x}(t)$ $T-t_0$ Almeida-Pineda $\mathbf{\vec x}(t)$ $\mathbf{\vec x}^*$ $t\ge t_0$ $\mathbf{\vec x}(t) = \mathbf{\vec x}^*$ BPTT $\mathbf{\vec x}^*$ 即可。
下面两个定理表明这种简单直观方法的合理性：
- Differentiability $F_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}\right)$ $G_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}_\mathbf N\right)$ $\mathbf{\vec x}$ $\mathbf{w}$ $\varphi_{\mathbf w}$ $\mathbf{w}$ 也是连续可微的。
  GNN $\varphi_{\mathbf w}$ $F_{\mathbf w}(\cdot)$ 是收缩映射。
- $F_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}\right)$ $G_{\mathbf w}\left(\mathbf{\vec x}, {\vec l}_\mathbf N\right)$ $\mathbf{\vec x}$ $\mathbf{w}$ $\mathbf{\vec z}(t) \in \mathcal R^s$ 为：
  $\vec{z} (t) = {(\frac{\partial F_{w} (\vec{x}, \vec{l})}{\partial \vec{x}})}^{⊤} \vec{z} (t + 1) + {(\frac{\partial G_{w} (\vec{x}, {\vec{l}}_{N})}{\partial \vec{x}})}^{⊤} \nabla_{\vec{o}} e_{w} (t)$
  $\mathbf{\vec z}(T),\mathbf{\vec z}(T-1),\cdots$ $\mathbf{\vec z}^* = \lim_{t\rightarrow -\infty} \mathbf{\vec z}(t)$ $\mathbf{\vec z}(T)$ 无关。
  更进一步有：
  $\nabla_{w} e_{w} = {(\frac{\partial G_{w} ({\vec{x}}^{*}, {\vec{l}}_{N})}{\partial w})}^{⊤} \nabla_{\vec{o}} e_{w} + {(\frac{\partial F_{w} ({\vec{x}}^{*}, \vec{l})}{\partial w})}^{⊤} {\vec{z}}^{*}$
  $\mathbf{\vec x}^*$ GNN $\mathbf{\vec z}^*$ 为上述收敛的向量。
  证明见论文原文。
  $G_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ layer $F_{\mathbf w}(\cdot)$ $f_{\mathbf w}(\cdot)$ 的 layer 时计算这一项。
GNN 参数学习算法包含三个部分：
- FORWARD $\mathbf{\vec x}^*$ $\left\|\mathbf{\vec x}(t) - \mathbf{\vec x}(t-1)\right\|$ 小于给定的阈值。
- BACKWARD $\nabla_{\mathbf{w}} e_{\mathbf w}$ $\left\|\mathbf{\vec z}(t-1) - \mathbf{\vec z}(t)\right\|$ 小于给定的阈值。
- MAIN $\mathbf{w}$ 直到满足迭代的停止标准。
FORWARD 部分：
- $\mathbf G = (\mathbf N,\mathbf E)$ $\mathbf{w}$ $\epsilon_f$
- $\mathbf{\vec x}^*$
- 算法步骤：
  - $\mathbf{\vec x}(0)$ $t=0$ 。
  - $\left\|\mathbf{\vec x}(t) - \mathbf{\vec x}(t-1)\right\|\le \epsilon_f$ 。迭代步骤为：
    - $\mathbf{\vec x}(t+1)$ $\mathbf{\vec x}(t+1) = F_{\mathbf w}\left(\mathbf{\vec x}(t),\vec l\right)$ 。
    - $t = t+1$ 。
  - $\mathbf{\vec x}^*(t)$ 。
BACKWARD 部分：
- $\mathbf G=(\mathbf N,\mathbf E)$ $\mathbf{\vec x}^*$ $\mathbf{w}$ $\epsilon_b$
- $\nabla_{\mathbf{w}}e_{\mathbf w}$
- 算法步骤：
  - 定义：
    $\vec{o} = G_{w} ({\vec{x}}^{*}, {\vec{l}}_{N}) A = {(\frac{\partial F_{w} ({\vec{x}}^{*}, \vec{l})}{\partial \vec{x}})}^{⊤}, \vec{b} = {(\frac{G_{w} ({\vec{x}}^{*}, {\vec{l}}_{N})}{\partial \vec{x}})}^{⊤} \nabla_{\vec{o}} e_{w}$
  - $\mathbf{\vec z}(T)$ $t = T$ 。
  - $\left\|\mathbf{\vec z}(t-1) - \mathbf{\vec z}(t)\right\|\le \epsilon_b$ $\mathbf{\vec z}^*$ 。迭代步骤为：
    - $\mathbf{\vec z}(t)$ $\mathbf{\vec z}(t) = \mathbf A\mathbf{\vec z}(t+1) + \mathbf{\vec b}$ 。
    - $t = t - 1$ 。
  - 计算梯度：
    $\nabla_{w} e_{w} = {(\frac{\partial G_{w} ({\vec{x}}^{*}, {\vec{l}}_{N})}{\partial w})}^{⊤} \nabla_{\vec{o}} e_{w} + {(\frac{\partial F_{w} ({\vec{x}}^{*}, \vec{l})}{\partial w})}^{⊤} {\vec{z}}^{*}$
  - $\nabla_{\mathbf{w}}e_{\mathbf w}$ 。
Main 部分：
- $\mathbf G=(\mathbf N,\mathbf E)$ $\lambda$
- $\mathbf{w}$
- 算法步骤：
  - $\mathbf{w}$ 。
  - $\mathbf{\vec x}^* = \text{Forward}(\mathbf{w})$ 。
  - 循环迭代，直到满足停止条件。循环步骤为：
    - $\nabla_{\mathbf{w}} e_{\mathbf w} = \text{Backward}\left(\mathbf{\vec x}^*,\mathbf{w}\right)$
    - $\mathbf{w} = \mathbf{w} - \lambda \nabla_{\mathbf{w}} e_{\mathbf w}$ 。
    - $\mathbf{\vec x}^* = \text{Forward}(\mathbf{w})$ 。
  - $\mathbf{w}$ 。
Main $\lambda$ ，但是也可以使用基于梯度下降的一些通用策略，例如使用带动量的梯度更新、或者自适应学习率的方案。另一方面，目前 GNN 只能通过梯度下降算法求解，非梯度下降算法目前还未解决，这是未来研究的方向。
实际上编码网络仅仅类似于静态的前馈神经网络，但是编码网络的层数是动态确定的（类似于 RNN ），并且网络权重根据输入图的拓扑结构来共享。因此为静态网络设计的二阶学习算法、剪枝算法、以及逐层学习算法无法直接应用于 GNN 。

1.1.4 转移函数和输出函数

$g_{\mathbf w}(\cdot)$ GNN $g_{\mathbf w}(\cdot)$ 采用一个多层前馈神经网络来实现。
$f_{\mathbf w}(\cdot)$ 在 GNNGNN $F_{\mathbf w}(\cdot)$ $f_{\mathbf w}(\cdot)$ 的实现，它们都是基于nonpositional form，positional form 也可以类似地实现。
nonpositional linear GNN ：
$h_{w} ({\vec{l}}_{n}, {\vec{l}}_{(n, u)}, {\vec{x}}_{u}, {\vec{l}}_{u}) = A_{n, u} {\vec{x}}_{u} + {\vec{b}}_{n}$
$\mathbf{\vec b}_n\in \mathcal R^s$ $\mathbf A_{n,u}\in \mathcal R^{s\times s}$ 分别由两个前馈神经网络的输出来定义，这两个前馈神经网络的参数对应于 GNN 的参数。更准确的说：
- transition network $\mathbf A_{n,u}$ 。
  $\phi_{\mathbf w}:\mathcal R^{2d_N+d_E} \rightarrow \mathcal R^{s^2}$ ，则定义：
  $A_{n, u} = \frac{μ}{s \times | ne [u] |} B$
  其中：
  - $\mathbf B\in \mathcal R^{s\times s}$ $\phi_{\mathbf w}\left(\vec l_n,\vec l_{n,u},\vec l_u\right)$ $s^2$ 个元素进行重新排列得到的矩阵。
  - $\mu\in (0,1)$ $\frac{\mu}{s\times |\text{ne}[u]|}$ $\mathbf B$ 进行缩放。
  $\mathbf A_{n,u}$ $\mathbf B$ 进行缩放得到。
  $\mathbf A_{n,u}$ tanh $F_\mathbf w(\cdot)$ 为收缩映射。
- forcing network $\mathbf{\vec b}_n$ 。
  $\rho_{\mathbf w}: \mathcal R^{d_N} \rightarrow \mathcal R^s$ ，则定义：
  ${\vec{b}}_{n} = ρ_{w} ({\vec{l}}_{n})$
  $\mathbf{\vec b}_n$ 为约束网络的输出构成的向量。
  $\mathbf{\vec b}_n$ $n$ 本身的标签信息。
$\left\|\phi_{\mathbf w}(\vec l_n,\vec l_{n,u},\vec l_u)\right\|_1 \le s$ $|\mathbf B|_1 \le s$ tanh $h_{\mathbf w} \left({\vec l}_n,{\vec l}_{(n,u)}, \mathbf{\vec x}_{u},{\vec l}_{u}\right) = \mathbf A_{n,u} \mathbf{\vec x}_u + \mathbf{\vec b}_n$ 有：
$F_{w} (\vec{x}, \vec{l}) = A \vec{x} + \vec{b}$
其中：
- $\mathbf{\vec b}$ $\mathbf{\vec b}_n$ $\mathbf{\vec x}$ $\mathbf{\vec x}_n$ 拼接而来：
  $\vec{b} = {[{\vec{b}}_{1}^{⊤}, \dots, {\vec{b}}_{| N |}^{⊤}]}^{⊤} \vec{x} = {[{\vec{x}}_{1}^{⊤}, \dots, {\vec{x}}_{| N |}^{⊤}]}^{⊤}$
- $\mathbf A$ $\bar{\mathbf A}_{n,u}$ ：
  $\begin{matrix} A = [\begin{matrix} {\bar{A}}_{1, 1} & {\bar{A}}_{1, 2} & \dots & {\bar{A}}_{1, | N |} \\ {\bar{A}}_{2, 1} & {\bar{A}}_{2, 2} & \dots & {\bar{A}}_{2, | N |} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ {\bar{A}}_{| N |, 1} & {\bar{A}}_{| N |, 2} & \dots & {\bar{A}}_{| N |, | N |} \end{matrix}] \end{matrix}$
  其中：
  - $u$ $n$ $\bar{\mathbf A}_{n,u} = \mathbf A_{n,u}$ 。
  - $u$ $n$ $\bar{\mathbf A}_{n,u} = \mathbf 0$ 。
$\mathbf{\vec b}_n$ $\mathbf A_{n,u}$ $\mathbf{\vec x}$ （它们仅仅依赖于图的结构和节点标签信息、边标签信息），因此有：
$\frac{\partial F_{w} (\vec{x}, \vec{l})}{\partial \vec{x}} = A$
则有：
${‖ \frac{\partial F_{w} (\vec{x}, \vec{l})}{\partial \vec{x}} ‖}_{1} = | | A | |_{1} \leq max_{u \in N} (\sum_{n \in ne [u]} | | A_{n, u} | |_{1}) \leq max_{u \in N} (\frac{μ}{s \times | ne [u] |} \times \sum_{n \in ne [u]} | | B | |_{1}) \leq μ$
$\mathbf{w}$ $F_{\mathbf w}(\cdot)$ 都是收缩映射。
nonpositional nonlinear GNN $h_{\mathbf w} \left({\vec l}_n,{\vec l}_{(n,u)}, \mathbf{\vec x}_{u},{\vec l}_{u}\right)$ $\mathbf w$ $F_{\mathbf w}(\cdot)$ 是收缩映射。这可以通过在损失函数中增加罚项来实现：
$\begin{matrix} e_{w} = \sum_{i = 1}^{p} \sum_{j = 1}^{q_{i}} {‖ t_{i, j} - φ_{w} (G_{i}, n_{i, j}) ‖}_{2}^{2} + β L ({‖ A ‖}_{1}) \\ A = \frac{\partial F_{w} (\vec{x}, \vec{l})}{\partial \vec{x}} \end{matrix}$
$\mathbf{\vec x}$ $\mathbf w$ 的大小进行约束。
$\mathbf A$ $F_\mathbf w(\cdot)$ $\mathbf{\vec x}$ $L(\cdot)$ 定义为：
$\begin{matrix} L (y) = {\begin{cases} (y - μ)^{2} & , if y > μ \\ 0 & , else \end{cases} \end{matrix}$
$\mu \in (0,1)$ $F_{\mathbf w}(\cdot)$ 的约束。
$\mathbf w$ $\left\|\mathbf A\right\|_1$ $p_{\mathbf w} =L(\|\mathbf A\|_1)= \sum_{i=1}^s L\left(\left\|\mathbf A^i\right\|_1\right)$ $\mathbf A^i$ $\mathbf A$ $i$ $L\left(\max_i\left\|\mathbf A^i\right\|_1\right)$ 的一个近似。

1.2 模型分析

GNN 和 RNN：事实上，GNN 是其它已知模型的扩展，特别地，RNN 是 GNN 的特例。当满足以下条件时，GNN 退化为 RNN：
- 输入图为有向无环图（例如最简单的有向的、线性的链式图）。
- $f_{\mathbf w}(\cdot)$ $\vec l_n, \mathbf{\vec x}_{\text{ch}[n]}$ $\text{ch}[n]$ $n$ 的子结点的集合。
- $\text{sn}$ graph-focused $\mathbf{\vec o}_\text{sn}$ 。
$f_{\mathbf w}(\cdot),g_{\mathbf w}(\cdot)$ 的神经网络形式包括：多层前馈神经网络、cascade correlation、自组织映射（self-orgnizing map）。在 RNN 中，编码网络采用多层前馈神经网络。这个简化了状态向量的计算。
GNN $f_{\mathbf w}(\cdot)$ 为线性函数时，GNN 模型还捕获了图上的随机游走过程。
$\mathbf{\vec x}_n$ 为一个实数，其定义为：
$x_{n} = \sum_{i \in pa [n]} a_{n, i} \times x_{i}$
$\text{pa}[n]$ $n$ $a_{n,i}$ 为归一化系数，满足：
$a_{n, i} \geq 0, \sum_{i \in pa [n]} a_{n, i} = 1$
$x_n = \sum_{i\in \text{pa}[n]} a_{n,i}\times x_i$ 定义了一个随机游走生成器：
- $a_{n,i}$ $n$ $i$ 的概率。
- $x_n$ $n$ 的概率。
$x_n$ $\mathbf{\vec x}$ ，则有：
$\begin{matrix} \vec{x} = A \vec{x} \\ \vec{x} = [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{| N |} \end{matrix}] A = [\begin{matrix} {\bar{a}}_{1, 1} & {\bar{a}}_{1, 2} & \dots & {\bar{a}}_{1, | N |} \\ {\bar{a}}_{2, 1} & {\bar{a}}_{2, 2} & \dots & {\bar{a}}_{2, | N |} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ {\bar{a}}_{| N |, 1} & {\bar{a}}_{| N |, 2} & \dots & {\bar{a}}_{| N |, | N |} \end{matrix}] \end{matrix}$
其中：
$\begin{matrix} {\bar{a}}_{n, i} = {\begin{cases} a_{n, i} & , if (i \in pa [n]) \\ 0 & , else \end{cases} \end{matrix}$
$||\mathbf A||_1 = 1$ 。
$t$ $\mathbf A^t$ $x_n = \sum_{i\in \text{pa}[n]} a_{n,i}\times x_i$ 就是一个收缩映射。
$t$ $\mathbf A^t$ GNN $F_{\mathbf w}(\cdot)$ $\mathbf A$ 是一个常量随机矩阵（constant stochastic matrix），而不是由神经网络产生的矩阵。
$\text{pa}[n]$ $\text{ne}[n]$ ，则结论仍然成立。
读者注：GNN 的核心是不动点理论，通过节点的消息传播使得整张图的每个节点的状态收敛，然后在收敛的状态基础上预测。
这里存在一个局限：基于不动点的收敛会导致节点之间的状态存在较多的消息共享，从而导致节点状态之间过于光滑（ over smooth ），这将使得节点之间缺少区分度。
如下图所示，每个像素点和它的上下左右、以及斜上下左右八个像素点相邻。初始时刻蓝色没有信息量，绿色、黄色、红色各有一部分信息。
- 开始时刻，不同像素点的区分非常明显。
- 在不动点的收敛过程中，所有像素点都趋向于一致，最终整个系统的信息分布比较均匀。
- 最终，虽然每个像素点都感知到了全局信息，但是我们已经无法根据每个像素点的最终状态来区分它们。

1.3 计算复杂度

我们关心三种类型的 GNNpositional GNN $f_{\mathbf w}(\cdot)$ $g_{\mathbf w}(\cdot)$ 通过前馈神经网络来实现）、nonpositional linear GNN、nonpositional nonlinear GNN 。
训练过程中一些复杂运算的计算复杂度见下表。为方便表述，我们假设训练集仅包含一张图。这种简化不影响结论，因为训练集所有的图总是可以合并为一张大图。另外，复杂度通过浮点运算量来衡量。
具体推导见论文。其中：
- instruction 表示具体的运算指令，positional/non-linear/linear 分别给出了三类 GNN 模型在对应运算指令的计算复杂度，execs 给出了迭代的次数。
- $\text{hi}$ $\text{hi}_f$ $f_\mathbf w(\cdot)$ 的实现网络的隐层神经元数量。
- $\text{it}_l$ epoch $\text{it}_b$ 表示平均每个epochBACKWARD $\text{it}_f$ 表示平均每个epoch 的前向迭代次数（FORWARD 过程中的循环迭代次数）。
- $\overrightarrow C_f$ $\overleftarrow C_f$ $f_\mathbf w(\cdot)$ $f_\mathbf w(\cdot)$ 梯度的计算复杂度。
- ${\mathbf A}= \frac{\partial F_{\mathbf w}\left(\mathbf{\vec x},\vec l\right)}{\partial \mathbf{\vec x}}$ $p_\mathbf w$ 为：
  $p_{w} = \sum_{j = 1}^{s} L ({‖ A^{j} ‖}_{1}) = \sum_{u \in N} \sum_{j = 1}^{s} L (\sum_{(n, u) \in E} \sum_{i = 1}^{s} | A_{i, j}^{n, u} | - μ) = \sum_{u \in N} \sum_{j = 1}^{s} α_{u, j}$
  $\mathbf A^{n,u}_{i,j}$ $\mathbf A$ $\mathbf A^{n,u}$ $i$ $j$ $\mathbf{ A}^j$ $\mathbf A$ $j$ $\alpha_{u,j}=L\left(\sum_{(n,u)\in \mathbf E}\sum_{i=1}^s \left|\mathbf A_{i,j}^{n,u}\right|-\mu\right )$ 。
- $\mathbf R^{n,u}$ $\mathbf R^{n,u}_{i,j} = \alpha_{u,j}\times \text{sgn}\left(\mathbf A^{n,u}_{i,j}\right)$ $t_\mathbf R$ $n$ $\mathbf R^{n,u} \ne \mathbf 0$ $u$ 的数量的均值。通常它是一个很小的数值。
当 GNN 模型训练完成之后，其推断速度也很快。
- positional GNN $O(|\mathbf N|\overrightarrow C_g + \text{it}_f|\mathbf N|\overrightarrow C_f)$ 。
- nonpositional nonliear GNN $O(|\mathbf N|\overrightarrow C_g +\text{it}_f|\mathbf E|\overrightarrow C_h)$ 。
- nonpositional linear GNN $O(|\mathbf N|\overrightarrow C_g+\text{it}_f|\mathbf E|s^2+|\mathbf N|\overrightarrow C_\rho+|\mathbf E|\overrightarrow C_\phi)$ 。
$\mathbf{\vec x}$ 的重复计算中，每次迭代的计算代价和输入图的维度（如边的数量）成线性关系，和前馈神经网络的隐层维度成线性关系，和状态向量的维度成线性关系。线性 GNN 是一个例外。线性 GNN 的单次迭代成本是状态维度的二次关系。
状态向量的收敛速度取决于具体的问题。但是 Banach 定理可以确保它是以指数级速度收敛。实验表明：通常5 到 15 次迭代足以逼近不动点。
positional GNN $\text{it}_f|\mathbf N|$ nonpositional nonliear GNN $\text{it}_f|\mathbf E|$ $|\mathbf E|$ $|\mathbf N|$ ，但是positional GNN 和 nonpositional nonlinear GNNpositional GNN $f_{\mathbf w}(\cdot)$ nonpositional nonliear GNN $h_{\mathbf w}(\cdot)$ 网络更复杂。
- positional GNN $f_{\mathbf w}(\cdot)$ $M\times (s + d_E)$ $M$ 为所有节点的最大邻居数量。
- nonpositonal nonliear GNN $h_{\mathbf w}(\cdot)$ $(s+d_E)$ 个神经元。
$f_{\mathbf w}(\cdot)$ $f_{\mathbf w}(\cdot)$ 时许多输入可能仍然未使用（很多输入填充为 null ）。
另一方面，观察到在 linear GNNFNN $O(s^2|\mathbf E|)$ $O(|\mathbf E|\overrightarrow C_h)$ 。
$h_{\mathbf w}(\cdot)$ $\text{hi}_h$ FNN $\overrightarrow C_h = O((s+d_E+2d_N)\times \text{hi}_h) = O(s\times \text{hi}_h)$ $\text{hi}_h$ $s$ ，因此线性模型比非线性模型更快。正如实验所证实的那样，这种优势通常被更差的效果所抵消。
GNN 的训练阶段要比推断阶段消耗更多时间，主要在于需要在多个epoch 中重复执行 forward 和 backward 过程。实验表明：forward 阶段和 backward 阶段的时间代价都差不多。
- forward $\mathbf{\vec x}(t)$ 。
- 类似于 forwardbackward $\mathbf{\vec z}(t)$ $\mathbf{\vec z}(t)$ $\text{it}_b$ 通常很小。
训练过程中，每个 epoch 的计算代价可以由上表中所有指令的计算复杂度的加权和得到，权重为指令对应的迭代次数。
- $s$ 的线性函数。
  $\mathbf{\vec z}(t) = \mathbf A^\top \mathbf{\vec z}(t+1) + \mathbf{\vec b}, \mathbf A = \frac{F_{\mathbf w}\left(\mathbf{\vec x},\vec l\right)}{\partial \mathbf{\vec x}}, \nabla_{\mathbf{w}}p_{\mathbf w}$ $s$ 的平方关系。
- nonpositional nonlinear GNN $\nabla_{\mathbf{w}}p_{\mathbf w}$ $t_\mathbf R\times \max(s^2\times \text{hi}_h,\overleftarrow C_h)$ 。
  $t_\mathbf R$ epoch $t_\mathbf R=0$ $\mathbf A$ $t_\mathbf R$ 1~5 $s$ $\nabla_{\mathbf{w}}p_{\mathbf w}$ 的复杂度较低。
  $s$ $s^2\times \text{hi}_h \gg \overleftarrow C_h$ $t_\mathbf R\gg 0$ $\nabla_{\mathbf{w}}p_{\mathbf w}$ 非常慢。但是值得一提的是，我们的实验中从未观察到这种情况。

1.4 实验

这里我们展示了在一组简单问题上获得的实验结果，这些问题是为了研究 GNN 模型的特性，并证明该方法可以应用于相关领域的相关应用。这些问题包括：子图匹配、诱变（mutagenesis）、网页排名，因为这些问题特别适合挖掘模型的属性并且与重要的现实应用相关。值得一提的是，GNN 模型已经成功应用于更大的应用，包括图像分类、图像中的物体定位、网页排名（web page ranking）、关系学习（relational learning）、XML 分类。
除非另有说明，以下事实适用于每个实验。
- 根据 RNN 的已有经验，nonpositional 转移函数效果要优于 positional 转移函数，因此这里测试了 nonpositional linear GNN 和 nonpositional nonlinear GNN 。
- 所有GNNnonpositional linear GNN $g_{\mathbf w}(\cdot),\phi_{\mathbf w}(\cdot),\rho_{\mathbf w}(\cdot)$ nonpositional nonlinear GNN $g_{\mathbf w}(\cdot),h_{\mathbf w}(\cdot)$ 都采用三层的前馈神经网络来实现，并使用 sigmoid 激活函数。
- $\delta$ 随机连接，直到构建的随机图满足指定条件。
数据集划分为训练集、验证集和测试集。
- $\mathbf G$ $\mathbf G$ 的不同节点。
- $\mathbf G_i$ ，则每张图整个被划分到训练集、验证集、测试集之一。
在每次试验中，训练最多执行 5000 个 epoch，每 20 个 epoch 在验证集上评估 GNN 。在验证集上实现最低损失函数的 GNN 被认为是最佳模型，并应用于测试集。
测试集性能评估指标为分类准确率或回归相对误差。
- $\mathbf t_{i,j}$ $\{+1,-1\}$ $t_{i,j}\times \varphi_{\mathbf w}(\mathbf G_i,n_{i,j}) \gt 0$ 则分类正确；否则分类不正确。
- $\mathbf t_{i,j}$ $\mathcal R$ 。模型的评估指标为相对误差：
  $| \frac{t_{i, j} - φ_{w} (G_{i}, n_{i, j})}{t_{i, j}} |$
算法在 Matlab 7 上实现，在配备了 2-GHz PowerPC 处理器的 Power Mac G5 上进行。

1.4.1 子图匹配问题

subgraph matching $\mathbf G$ $\mathbf S$ $\tau$ $n_{i,j}$ $\mathbf G_i$ $\mathbf S$ $\tau(\mathbf G_i,n_{i,j}) = 1$ $\tau(\mathbf G_i,n_{i,j}) = -1$ 。
$\mathbf G_1,\mathbf G_2$ $\mathbf S$ $\vec l_n$ $\tau$ $\tau(\mathbf G_i,n_{i,j}) = 1$ $\tau(\mathbf G_i,n_{i,j}) = -1$ 。
子图匹配问题有很多实际应用，如：物体定位、化合物检测。子图匹配问题是评估图算法的基准测试。实验表明 GNN 模型可以处理该任务。
- 一方面 GNN 模型解决子图匹配问题的结果可能无法与该领域的专用方法相比，后者的速度更快、准确率更高。
- GNN $\mathbf G_i$ 是未知的且仅已知它的几个节点。
600 $\delta = 0.2$ $\mathbf S$ $\mathbf S$ $\mathbf G_i$ $\mathbf S$ 的一份拷贝。
每个节点包含整数标签，取值范围从 [0,10]。我们使用一个均值为00.25 $\mathbf S$ 的拷贝都不同。
注意添加噪声之后，节点的标签仍然为整数，因此需要四舍五入。
$\mathbf t_{i,j}$ $\mathbf G_i$ $\mathbf S$ 。
GNN 配置：
- $s=5$ 。
- 所有实验中，GNN 的所有神经网络的隐层为三层，隐层维度为 5 。我们已经测试过更多的网络架构，结果是类似的。
为评估子图匹配任务中，标签信息和子图连通性的相对重要性，我们还应用了前馈神经网络FNN 作为 baseline 。FNN 有一个输出单元、20FNN $\vec l_{n_{i,j}}$ $\mathbf t_{i,j}$ ，它并没有利用图的结构。
实验结果如下图所示，其中 NL 表示 nonpositional nonlinear GNN，L 表示 nonpositional linear GNN ，FNN 表示前馈神经网络。评估指标为测试集准确率。
结论：
- 正负节点的比例影响了所有方法的效果。
  - $|\mathbf S|$ $|\mathbf G|$ 时，几乎所有节点都是正样本，所有方法预测的准确率都较高。
  - $|\mathbf S|$ $|\mathbf G|$ 的一半时，正负节点比较均匀，此时所有方法预测的准确率都较低。
  事实上，在后一种情况下，数据集是完全平衡的，并且更难以猜测正确的目标。
- $|\mathbf S|$ 影响了所有方法的结果。
  11 $|\mathbf S|$ $|\mathbf S|$ $|\mathbf G| = 2|\mathbf S|$ 时。
- GNN 总是优于 FNN，这表明 GNN 可以同时利用标签内容和图的拓扑结构。
- 非线性 GNN 略优于线性 GNN，这可能是因为非线性 GNN 实现了更为通用的模型，它的模型容量更大。
- 最后，可以观察到 FNN 的总体平均误差比 GNN 增加大约 50% 。GNNFNN $|\mathbf S|$ 的增加而变小。
  实际上，GNNinformation diffusion mechanism $\mathbf S$ 较大时，必须扩散更多的信息，因此要学习的函数更复杂。
为评估GNN 的计算复杂度和准确性，我们评估了不同节点数、不同边数、不同隐层维度、不同状态向量维度的效果。在基准情况下：训练集包含10 个随机图，每个图包含20 个节点和 40 条边；GNN 隐层维度为5，状态向量维度为 2 。
GNN 训练 1000 个 epoch 并报告十次实验的平均结果。如预期的一样，梯度计算中需要的 CPU 时间随着节点数量、边的数量、隐层维度呈线性增长，随着状态向量维度呈二次增长。
下图为节点数量增加时，梯度计算花费的CPU 时间。实线表示非线性GNN，虚线表示线性 GNN 。
下图为状态向量维度增加时，梯度计算花费的 CPU 时间。实线表示非线性GNN，虚线表示线性 GNN 。
GNN $\mathbf A=\frac{\partial F_{\mathbf w}\left(\mathbf{\vec x},\vec l\right)}{\partial \mathbf{\vec x}}$ $\nabla_{\mathbf{w}} p_{\mathbf w}$ 的时间代价。下图给出了计算梯度过程中的总时间代价。
-o- $e_{\mathbf w}$ $\nabla_{\mathbf{w}}e_{\mathbf w}$ -*- $\mathbf A$ -x- $\nabla_{\mathbf{w}} p_{\mathbf w}$ 的时间代价；点线 ...和给出了剩下的前向计算的时间代价；虚线 ---给出了剩下的反向计算的时间代价；实线表示剩下的计算梯度的时间代价。
$\nabla_{\mathbf{w}} p_{\mathbf w}$ $t_\mathbf R$ $n$ $\mathbf R^{n,u} \ne \mathbf 0$ $u$ 的数量的均值），通常它是一个很小的数值。
epoch $\mathbf R^{n,u} \ne \mathbf 0$ $u$ $\mathbf R^{n,u}$ $u$ 4 $\mathbf{\vec x}^*$ $\mathbf{\vec z}^*$ ）所需要的平均迭代次数的直方图，可以看到这些值通常也很小。
$t_\mathbf R$ 取值（x 轴）的分布（y 轴表示出现次数）。

1.4.2 Mutagenesis问题

Mutagenesis 数据集：一个小型数据集，经常作为关系学习（relational learning）和 inductive logic programming 中的基准。它包含 230 种硝基芳香族化合物的数据，这些化合物是很多工业化学反应中的常见中间副产品。
任务目标是学习识别 mutagenic 的化合物。我们将对数诱变系数（ log mutagenicity ）的阈值设为0，因此这个任务是一个二类分类问题。
数据集中的每个分子都被转换为一张图：
- 节点表示原子、边表示原子键（atom-bond：AB ）。平均的节点数量大约为 26 。
- 边和节点的标签信息包括原子键 AB、原子类型、原子能量状态，以及其它全局特征。全局特征包括：化学度量（chemical measurement） C （包括 lowest unoccupied molecule orbital, the water/octanol partition coefficient ）、预编码结构（precoded structural ）属性 P\mathbf S 。
  另外原子键可以用于定义官能团（functional groups: FG ）。
- 在每个图中存在一个监督节点：分子描述中的第一个原子。如果分子为诱变的则该节点的期望输出为1，否则该节点的期望输出为 -1 。
在这 230 个分子中，有 188 个适合线性回归分析，这些分子被称作回归友好（regression friendly）。剩下的 42 个分子称作回归不友好（regression unfriendly）。
GNN 在诱变化合物问题上的结果如下表所示。我们采用十折交叉验证进行评估：将数据集随机拆分为十份，重复实验十次，每次使用不同的部分作为测试集，剩余部分作为训练集。我们运行5 次十折交叉，并取其均值。
在回归友好分子上的效果：
在回归不友好分子上的效果：
在所有分子上的效果：
结论：
- GNN 在回归不友好分子和所有分子上的效果都达到最佳，在回归友好分子上的效果接近 SOTA 水平。
- 大多数方法在应用于整个数据集时，在回归友好分子上（相比较于回归不友好分子）显示出更高的准确率。但是GNN 与此相反。这表明 GNN 可以捕获有利于解决问题但是在回归友好分子、回归不友好分子这两部分中分布不均的模式特征。

1.4.3 Web PageRank

PageRank $n$ $p_n$ 定义为：
$p_{n} = d \times \frac{\sum_{u \in pa [n]} p_{u}}{o_{n}} + (1 - d)$
$o_n$ $n$ out-degree $d\in [0,1]$ damping factor $\text{pa}[n]$ $n$ 的父节点集合。
$\mathbf G$ $\delta = 0.2$ 随机生成，包含 5000 个节点。训练集、验证集、测试集由图的不同节点组成，其中 50 个节点作为训练集、50 个节点作为验证集、剩下节点作为测试集。
$n$ $\vec l_n = [a_n,b_n]$ $a_n\in \{0,1\},b_n \in \{0,1\}$ $n$ 是否属于两个给定的主题：
- $[a_n,b_n]=[1,1]$ $n$ 同时属于这两个主题。
- $[a_n,b_n] = [1,0]$ $n$ 仅仅属于第一个主题。
- $[a_n,b_n]=[0,1]$ $n$ 仅仅属于第二个主题。
- $[a_n,b_n]=[0,0]$ $n$ 不属于任何主题。
需要拟合的目标（target）为：
$\begin{matrix} t_{n} = {\begin{cases} \frac{2 p_{n}}{\sum_{j \in N} | p_{j} |} & , if (a_{n} XOR b_{n}) = 1 \\ \frac{p_{n}}{\sum_{j \in N} | p_{j} |} & , otherwise \end{cases} \end{matrix}$
这里我们使用线性 GNN 模型，因为线性 GNN 模型很自然的类似于 PageRank5 $s=1$ $x_n$ ）。
$g_{\mathbf w}\left(x_n,\vec l_n\right) = x_n^\prime \times \pi_{\mathbf w}\left(x_n,\vec l_n\right)$ $x_n^\prime$ $x_n$ $\pi_{\mathbf w}$ 为三层前馈神经网络，隐层维度为 5 。
下图给出了 GNN 模型的结果。其中图 (a) 给出了仅属于一个主题的网页的结果，图 (b) 给出了其它网页的结果。
$t_n$ GNN $t_n$ $t_n$ 得分进行升序排列。该结果清晰地表明 GNN 在这个问题上表现得非常好。
下图给出学习过程中的误差。红色实线为训练集的误差，蓝色虚线是验证集的误差。注意：两条曲线总是非常接近，并且验证集的误差在 2400 个 epoch 之后仍在减少。这表明尽管训练集由 5000 个节点中的 50 个组成，GNN 仍然未经历过拟合。